Khiops: une méthode statistique de discrétisation

نویسنده

  • Marc Boullé
چکیده

RÉSUMÉ. Dans le domaine de l’apprentissage supervisé, certains modèles sont adaptés uniquement aux données qualitatives. Ces modèles procèdent alors à une étape de discrétisation des attributs numériques. De nombreuses méthodes de discrétisation ont été proposées dans la bibliographie, qui se basent sur des critères statistiques, informationnels ou encore d’autres critères dédiés. Nous proposons ici une nouvelle méthode de discrétisation, Khiops, basée sur la statistique du Khi2. Contrairement aux méthodes de discrétisation apparentées ChiMerge et ChiSplit, cette méthode optimise le critère du Khi2 globalement sur l’ensemble du domaine de discrétisation et ne nécessite aucun paramétrage de critère d’arrêt de la discrétisation. Une étude théorique complétée par des expérimentations montre la robustesse de la méthode et la qualité prédictive des discrétisations obtenues.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

A robust method for partitioning the values of categorical attributes

Résumé. Dans le domaine de l’apprentissage supervisé, les méthodes de groupage des modalités d’un attribut symbolique permettent de construire un nouvel attribut synthétique conservant au maximum la valeur informationnelle de l’attribut initial et diminuant le nombre de modalités. Nous proposons ici une généralisation de l’algorithme de discrétisation Khiops pour le problème du groupage des mod...

متن کامل

Khiops: outil d'apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables

Résumé. Khiops est un outil d’apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables. L’importance prédictive des variables est évaluée au moyen de modèles de discrétisation dans le cas numérique et de groupement de valeurs dans le cas catégoriel. Dans le cas d’une base multi-tables, par exemple des clients avec leurs achats, une table d’analyse individus ×...

متن کامل

Une méthode implicative pour l'analyse de données d'expression de gènes

Résumé. Nous présentons une méthode d'extraction d'associations basée sur l'analyse statistique implicative et la notion de rang. Nous avons adapté le concept d'intensité d'implication à des classements pour découvrir des relations partielles robustes vis à vis du bruit et des variations d’amplitude. Appliquée aux données de puces à ADN, cette méthode met en évidence des relations entre des for...

متن کامل

Recherche d'image par le contenu : requête partielle ou globale, apprentissage en ligne

Résumé. Nous présentons dans cet article deux méthodes d’élaboration des signatures, une méthode globale à l’aide d’histogrammes et une méthode de description des régions et de leur disposition dans l’image. Nous exposons ensuite une méthode dédiée à la requête partielle qui est basée sur la mise en correspondance de graphes de régions et une méthode interactive basée sur l’apprentissage statis...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2002